我们考虑了最小化客观功能的优化问题,该问题允许变异形式,并根据\ textIt {约束域}上的概率分布定义,这对理论分析和算法设计构成了挑战。受镜下降算法的启发,我们提出了一种迭代和基于粒子的算法,称为镜像变异传输(\ textbf {mirriryvt})。对于每次迭代,\ textbf {mirrirvt}将粒子映射到由镜像映射引起的无约束的双空间,然后大约在通过推动粒子来定义的分布的歧管上大致执行wasserstein梯度下降。在迭代结束时,将粒子映射回原始的约束空间。通过模拟实验,我们证明了\ textbf {mirrirvt}的有效性,可以最大程度地限制函数,而不是单纯形和欧几里得球受到的域上的概率分布。我们还分析了其理论特性,并将其融合到目标功能的全局最小值。
translated by 谷歌翻译
本文介绍了一位深钢筋学习代理(AI),它使用声音作为IEEE COG 2022的DareFightingings竞赛中Darefightingings平台上的输入。尽管最新的AI主要依赖于其环境提供的视觉或结构化观察结果,但学会从Sound玩游戏仍然是新的,因此具有挑战性。我们建议使用不同的方法来处理音频数据,并为盲人AI使用近端策略优化算法。我们还建议利用盲人AI评估提交竞争的声音设计,并为此任务定义两个指标。实验结果不仅显示了我们的盲人AI,而且还提出了两个指标的有效性。
translated by 谷歌翻译
Despite their popularity in deep learning and machine learning in general, the theoretical properties of adaptive optimizers such as Adagrad, RMSProp, Adam or AdamW are not yet fully understood. In this paper, we develop a novel framework to study the stability and generalization of these optimization methods. Based on this framework, we show provable guarantees about such properties that depend heavily on a single parameter $\beta_2$. Our empirical experiments support our claims and provide practical insights into the stability and generalization properties of adaptive optimization methods.
translated by 谷歌翻译
Modern Review Helpfulness Prediction systems are dependent upon multiple modalities, typically texts and images. Unfortunately, those contemporary approaches pay scarce attention to polish representations of cross-modal relations and tend to suffer from inferior optimization. This might cause harm to model's predictions in numerous cases. To overcome the aforementioned issues, we propose Multimodal Contrastive Learning for Multimodal Review Helpfulness Prediction (MRHP) problem, concentrating on mutual information between input modalities to explicitly elaborate cross-modal relations. In addition, we introduce Adaptive Weighting scheme for our contrastive learning approach in order to increase flexibility in optimization. Lastly, we propose Multimodal Interaction module to address the unalignment nature of multimodal data, thereby assisting the model in producing more reasonable multimodal representations. Experimental results show that our method outperforms prior baselines and achieves state-of-the-art results on two publicly available benchmark datasets for MRHP problem.
translated by 谷歌翻译
Reinforcement learning in partially observable domains is challenging due to the lack of observable state information. Thankfully, learning offline in a simulator with such state information is often possible. In particular, we propose a method for partially observable reinforcement learning that uses a fully observable policy (which we call a state expert) during offline training to improve online performance. Based on Soft Actor-Critic (SAC), our agent balances performing actions similar to the state expert and getting high returns under partial observability. Our approach can leverage the fully-observable policy for exploration and parts of the domain that are fully observable while still being able to learn under partial observability. On six robotics domains, our method outperforms pure imitation, pure reinforcement learning, the sequential or parallel combination of both types, and a recent state-of-the-art method in the same setting. A successful policy transfer to a physical robot in a manipulation task from pixels shows our approach's practicality in learning interesting policies under partial observability.
translated by 谷歌翻译
这项研究介绍了我们对越南语言和语音处理任务(VLSP)挑战2021的文本处理任务的医疗保健领域的自动越南图像字幕的方法作为编码器的体系结构和长期的短期内存(LSTM)作为解码器生成句子。这些模型在不同的数据集中表现出色。我们提出的模型还具有编码器和一个解码器,但是我们在编码器中使用了SWIN变压器,LSTM与解码器中的注意模块结合在一起。该研究介绍了我们在比赛期间使用的培训实验和技术。我们的模型在vietcap4h数据集上达到了0.293的BLEU4分数,并且该分数在私人排行榜上排名3 $^{rd} $。我们的代码可以在\ url {https://git.io/jddjm}上找到。
translated by 谷歌翻译
大规模复杂动力系统的实时精确解决方案非常需要控制,优化,不确定性量化以及实践工程和科学应用中的决策。本文朝着这个方向做出了贡献,模型限制了切线流形学习(MCTANGENT)方法。 McTangent的核心是几种理想策略的协同作用:i)切线的学术学习,以利用神经网络速度和线条方法的准确性; ii)一种模型限制的方法,将神经网络切线与基础管理方程式进行编码; iii)促进长时间稳定性和准确性的顺序学习策略;和iv)数据随机方法,以隐式强制执行神经网络切线的平滑度及其对真相切线的可能性,以进一步提高麦克氏解决方案的稳定性和准确性。提供了半启发式和严格的论点,以分析和证明拟议的方法是合理的。提供了几个用于传输方程,粘性汉堡方程和Navier Stokes方程的数值结果,以研究和证明所提出的MCTANGENT学习方法的能力。
translated by 谷歌翻译
深度神经网络的兴起为优化推荐系统提供了重要的驱动力。但是,推荐系统的成功在于精致的建筑制造,因此呼吁神经建筑搜索(NAS)进一步改善其建模。我们提出了NASREC,它是一种训练单个超级网的范式,并通过重量共享有效地产生丰富的模型/子构造。为了克服数据多模式和体系结构异质性挑战,NASREC建立了一个大型的超级网(即搜索空间),以搜索完整的体系结构,而SuperNet结合了多功能操作员的选择和密集的连接性选择,并使人类的密集连接性最小化。 Nasrec的规模和异质性在搜索中构成了挑战,例如训练效率低下,操作员不平衡和降级等级相关性。我们通过提出单操作员任何连接采样,操作员平衡互动模块和训练后微调来应对这些挑战。我们对三个点击率(CTR)预测基准测试的结果表明,NASREC可以胜过手动设计的模型和现有的NAS方法,从而实现最先进的性能。
translated by 谷歌翻译
本文旨在解决多个对象跟踪(MOT),这是计算机视觉中的一个重要问题,但由于许多实际问题,尤其是阻塞,因此仍然具有挑战性。确实,我们提出了一种新的实时深度透视图 - 了解多个对象跟踪(DP-MOT)方法,以解决MOT中的闭塞问题。首先提出了一个简单但有效的主题深度估计(SODE),以在2D场景中自动以无监督的方式自动订购检测到的受试者的深度位置。使用SODE的输出,提出了一个新的活动伪3D KALMAN滤波器,即具有动态控制变量的Kalman滤波器的简单但有效的扩展,以动态更新对象的运动。此外,在数据关联步骤中提出了一种新的高阶关联方法,以合并检测到的对象之间的一阶和二阶关系。与标准MOT基准的最新MOT方法相比,提出的方法始终达到最先进的性能。
translated by 谷歌翻译
科学数据中的关系,例如单变量数据中特征的数值和空间分布关系,多元数据中的标量值组合的关系以及时间变化和整体数据中的体积的关联,是复杂且复杂的。本文介绍了一种新型的无监督表示学习模型Voxel2Vec,该模型用于在低维矢量空间中学习标量值/标量值组合的分布式表示。它的基本假设是,如果两个标量值/标量值组合具有相似的上下文,则它们通常在特征方面具有很高的相似性。通过将标量值/标量值组合表示为符号,voxel2vec在空间分布的背景下了解它们之间的相似性,然后允许我们通过传输预测来探索卷之间的整体关联。我们通过将其与单变量数据的等速度相似性图进行比较,并将学习的分布式表示形式与多变量数据分类以及用于时间变化和集合数据的关联分析来证明voxel2vec的有用性和有效性。
translated by 谷歌翻译